개요
재현율(Recall)은 자연어처리(NLP) 및 머신러닝 분야에서 모델의 성능을 평가하는 핵심 지표 중 하나로, 정답인 샘플 중에서 모델이 얼마나 많은 것을 올바르게 찾아냈는지를 나타내는 비율입니다. 특히 정밀도(Precision)와 함께 분류 모델, 정보 검색 시스템, 개체명 인식(NER), 질의 응답(QA) 등 다양한 자연어처리 작업에서 평가에 활용됩니다.
재현율은 "민감도(Sensitivity)" 또는 "참 양성율(True Positive Rate)"이라고도 불리며, 모델이 긍정 사례를 놓치지 않고 얼마나 잘 탐지하는지를 측정합니다. 따라서 위험한 사건을 놓치는 것을 방지해야 하는 상황(예: 질병 진단, 이상 거래 탐지)에서는 높은 재현율이 매우 중요합니다.
재현율의 정의와 계산식
재현율은 다음과 같은 공식으로 계산됩니다:
$$
\text{재현율} = \frac{\text{참 양성 (True Positive, TP)}}{\text{참 양성 (TP)} + \text{거짓 음성 (False Negative, FN)}}
$$
여기서 각 용어의 의미는 다음과 같습니다:
- 참 양성 (TP): 실제로 긍정인 샘플을 모델이 긍정으로 올바르게 예측한 경우
- 거짓 음성 (FN): 실제로 긍정인 샘플을 모델이 부정으로 잘못 예측한 경우
즉, 재현율은 실제로 긍정인 전체 샘플 중에서 모델이 얼마나 많은 것을 맞게 예측했는지를 비율로 나타냅니다.
예시
예를 들어, 100명의 환자 중 10명이 질병에 걸렸고(실제 양성), 모델이 그 중 8명만을 질병 보유자로 진단했다면:
- TP = 8
- FN = 2 (질병이 있음에도 불구하고 모델이 '정상'으로 잘못 판단)
- 재현율 = $ \frac{8}{8 + 2} = 0.8 $ → 80%
이 경우 모델은 질병을 가진 환자 5명 중 4명만을 찾아냈으며, 1명은 놓친 셈입니다.
재현율과 정밀도의 관계
재현율은 정밀도와 함께 분석되어야 의미 있는 해석이 가능합니다. 두 지표는 종종 상호 보완적이며 트레이드오프 관계를 가집니다.
| 지표 |
의미 |
계산식 |
| 재현율 |
실제 양성 중 모델이 맞게 예측한 비율 |
$ \frac{TP}{TP + FN} $ |
| 정밀도 |
모델이 양성이라고 예측한 것 중 실제로 양성인 비율 |
$ \frac{TP}{TP + FP} $ |
- 재현율이 높다: 모델이 거의 모든 긍정 사례를 찾지만, 부정 사례를 긍정으로 잘못 분류할 수 있음 (FP 증가 → 정밀도 하락)
- 정밀도가 높다: 모델이 긍정으로 예측한 사례는 대부분 정확하지만, 긍정 사례를 많이 놓칠 수 있음 (FN 증가 → 재현율 하락)
이러한 균형을 맞추기 위해 F1 점수(정밀도와 재현율의 조화 평균)가 자주 사용됩니다.
자연어처리에서의 활용 사례
재현율은 자연어처리의 여러 하위 분야에서 다음과 같이 활용됩니다:
1. 개체명 인식(Named Entity Recognition, NER)
- 모델이 문장 내의 사람, 장소, 조직 등을 얼마나 많이 올바르게 인식하는지를 평가
- 예: "서울은 대한민국의 수도입니다." → "서울"을 장소(Location)로 인식해야 함
- 재현율이 낮으면, 실제 존재하는 개체명을 놓치는 경우가 많음
2. 정보 검색 (Information Retrieval)
- 사용자의 질의에 대해 관련 문서를 얼마나 많이 검색했는지 평가
- 전체 관련 문서 중 검색 시스템이 가져온 관련 문서의 비율이 재현율
3. 스팸 메일 분류
- 실제 스팸 메일 중 모델이 스팸으로 올바르게 분류한 비율
- 재현율이 낮으면 정상 메일처럼 보이는 스팸 메일이 수신함에 도달할 위험이 있음
4. 감성 분석
- 긍정 리뷰 중 모델이 긍정으로 분류한 비율
- 특히 고객 피드백 모니터링에서는 부정 감성 재현율이 중요 (모든 불만을 포착해야 하므로)
재현율의 장단점
장점
- 긍정 클래스의 누락 여부를 명확히 평가할 수 있음
- 위험 탐지, 질병 진단 등에서 중요한 성능 지표
- 모델의 "민감도"를 직접적으로 반영
단점
- 부정 샘플의 오진(거짓 양성)은 고려하지 않음 → 정밀도와 함께 봐야 함
- 데이터 불균형 시 해석이 어려울 수 있음 (예: 긍정 샘플이 극소수일 때 높은 재현율도 의미 없을 수 있음)
관련 지표 및 확장
- F1 점수: 정밀도와 재현율의 조화 평균
$$
F1 = 2 \times \frac{\text{정밀도} \times \text{재현율}}{\text{정밀도} + \text{재현율}}
$$
- 정밀도-재현율 곡선 (PR Curve): 다양한 분류 임계값에 따른 정밀도와 재현율의 변화를 시각화한 그래프
- ROC 곡선 대비 PR 곡선: 특히 양성 클래스가 드문 경우(PR 곡선이 더 유용)
참고 자료 및 관련 문서
- Precision and Recall - Wikipedia
- Christopher D. Manning 외, Introduction to Information Retrieval, Cambridge University Press
- Jurafsky, D. & Martin, J. H., Speech and Language Processing (3rd ed.)
관련 문서:
- 정밀도
- F1 점수
- 혼동 행렬
# 재현율
## 개요
재현율(Recall)은 자연어처리(NLP) 및 머신러닝 분야에서 모델의 성능을 평가하는 핵심 지표 중 하나로, **정답인 샘플 중에서 모델이 얼마나 많은 것을 올바르게 찾아냈는지**를 나타내는 비율입니다. 특히 정밀도(Precision)와 함께 분류 모델, 정보 검색 시스템, 개체명 인식(NER), 질의 응답(QA) 등 다양한 자연어처리 작업에서 평가에 활용됩니다.
재현율은 "민감도(Sensitivity)" 또는 "참 양성율(True Positive Rate)"이라고도 불리며, 모델이 긍정 사례를 놓치지 않고 얼마나 잘 탐지하는지를 측정합니다. 따라서 **위험한 사건을 놓치는 것을 방지해야 하는 상황**(예: 질병 진단, 이상 거래 탐지)에서는 높은 재현율이 매우 중요합니다.
---
## 재현율의 정의와 계산식
재현율은 다음과 같은 공식으로 계산됩니다:
$$
\text{재현율} = \frac{\text{참 양성 (True Positive, TP)}}{\text{참 양성 (TP)} + \text{거짓 음성 (False Negative, FN)}}
$$
여기서 각 용어의 의미는 다음과 같습니다:
- **참 양성 (TP)**: 실제로 긍정인 샘플을 모델이 긍정으로 올바르게 예측한 경우
- **거짓 음성 (FN)**: 실제로 긍정인 샘플을 모델이 부정으로 잘못 예측한 경우
즉, 재현율은 **실제로 긍정인 전체 샘플 중에서 모델이 얼마나 많은 것을 맞게 예측했는지**를 비율로 나타냅니다.
### 예시
예를 들어, 100명의 환자 중 10명이 질병에 걸렸고(실제 양성), 모델이 그 중 8명만을 질병 보유자로 진단했다면:
- TP = 8
- FN = 2 (질병이 있음에도 불구하고 모델이 '정상'으로 잘못 판단)
- 재현율 = $ \frac{8}{8 + 2} = 0.8 $ → **80%**
이 경우 모델은 질병을 가진 환자 5명 중 4명만을 찾아냈으며, 1명은 놓친 셈입니다.
---
## 재현율과 정밀도의 관계
재현율은 정밀도와 함께 분석되어야 의미 있는 해석이 가능합니다. 두 지표는 종종 **상호 보완적이며 트레이드오프** 관계를 가집니다.
| 지표 | 의미 | 계산식 |
|------|------|--------|
| 재현율 | 실제 양성 중 모델이 맞게 예측한 비율 | $ \frac{TP}{TP + FN} $ |
| 정밀도 | 모델이 양성이라고 예측한 것 중 실제로 양성인 비율 | $ \frac{TP}{TP + FP} $ |
- **재현율이 높다**: 모델이 거의 모든 긍정 사례를 찾지만, 부정 사례를 긍정으로 잘못 분류할 수 있음 (FP 증가 → 정밀도 하락)
- **정밀도가 높다**: 모델이 긍정으로 예측한 사례는 대부분 정확하지만, 긍정 사례를 많이 놓칠 수 있음 (FN 증가 → 재현율 하락)
이러한 균형을 맞추기 위해 **F1 점수**(정밀도와 재현율의 조화 평균)가 자주 사용됩니다.
---
## 자연어처리에서의 활용 사례
재현율은 자연어처리의 여러 하위 분야에서 다음과 같이 활용됩니다:
### 1. 개체명 인식(Named Entity Recognition, NER)
- 모델이 문장 내의 사람, 장소, 조직 등을 얼마나 많이 올바르게 인식하는지를 평가
- 예: "서울은 대한민국의 수도입니다." → "서울"을 장소(Location)로 인식해야 함
- 재현율이 낮으면, 실제 존재하는 개체명을 놓치는 경우가 많음
### 2. 정보 검색 (Information Retrieval)
- 사용자의 질의에 대해 관련 문서를 얼마나 많이 검색했는지 평가
- 전체 관련 문서 중 검색 시스템이 가져온 관련 문서의 비율이 재현율
### 3. 스팸 메일 분류
- 실제 스팸 메일 중 모델이 스팸으로 올바르게 분류한 비율
- 재현율이 낮으면 정상 메일처럼 보이는 스팸 메일이 수신함에 도달할 위험이 있음
### 4. 감성 분석
- 긍정 리뷰 중 모델이 긍정으로 분류한 비율
- 특히 고객 피드백 모니터링에서는 부정 감성 재현율이 중요 (모든 불만을 포착해야 하므로)
---
## 재현율의 장단점
### 장점
- 긍정 클래스의 누락 여부를 명확히 평가할 수 있음
- 위험 탐지, 질병 진단 등에서 중요한 성능 지표
- 모델의 "민감도"를 직접적으로 반영
### 단점
- 부정 샘플의 오진(거짓 양성)은 고려하지 않음 → 정밀도와 함께 봐야 함
- 데이터 불균형 시 해석이 어려울 수 있음 (예: 긍정 샘플이 극소수일 때 높은 재현율도 의미 없을 수 있음)
---
## 관련 지표 및 확장
- **F1 점수**: 정밀도와 재현율의 조화 평균
$$
F1 = 2 \times \frac{\text{정밀도} \times \text{재현율}}{\text{정밀도} + \text{재현율}}
$$
- **정밀도-재현율 곡선 (PR Curve)**: 다양한 분류 임계값에 따른 정밀도와 재현율의 변화를 시각화한 그래프
- **ROC 곡선 대비 PR 곡선**: 특히 양성 클래스가 드문 경우(PR 곡선이 더 유용)
---
## 참고 자료 및 관련 문서
- [Precision and Recall - Wikipedia](https://en.wikipedia.org/wiki/Precision_and_recall)
- Christopher D. Manning 외, *Introduction to Information Retrieval*, Cambridge University Press
- Jurafsky, D. & Martin, J. H., *Speech and Language Processing* (3rd ed.)
**관련 문서**:
- [정밀도](/wiki/정밀도)
- [F1 점수](/wiki/F1_점수)
- [혼동 행렬](/wiki/혼동_행렬)